17. 练习:A/B 测试的难点
A/B 测试的难点
虽然能确定 A/B 测试结果的效果差异统计显著性是项宝贵的技能,但要确保你自己开展了成功的 A/B 测试,你需要考虑很多其它的因素。在现实中,要设计、开展 A/B 测试、得出结论并根据结论做出正确决策并不容易。
在下列练习中,你会遇到三个情景—— Audacity 开展了 A/B 测试,却做出不良决策。请思考是哪里出了错误、要如何避免这些后果。
情景 1
- 实验: 为了知道教室新布局是否有助于吸引学员,Audacity 对该布局进行了测试。在进行了为期两周的 A/B 测试后,Audacity 发现新布局组的平均教室逗留时长和完成率都降低了,于是决定不改动布局。
- 现实: 但他们不知道的是,使用新布局的新学员在教室逗留的时长和完成率有显著提高。从长远来看,布局也有利于吸引老学员,只不过老学员现在具有抗拒改变的心理。
SOLUTION:
- 实验包括了老学员,老学员在短期内会有偏见。
- 实验开展得不够久,老学员还没来得及适应变化。
情景 2
- __实验:__Audacity 测试了登录页面的一个新元素,该元素能全程指导用户选择课程,同时还为用户推荐课程。在进行了为期一月的 A/B 测试后,Audacity 发现配置了新元素的课程页面的点击率上升了(即注册率升高了),于是决定修改页面。
- 现实: 他们不知道的是,虽然在新元素组中,总注册数增加了,但用户购买的几乎都是更短、更便宜的课程,因此拉低了 Audacity 的营收,也就是说,新元素使得更多学生更倾向于选择更多短期承诺的课程。
SOLUTION:
- 单是注册率不能作为本实验的最佳指标。
- 指标没有考虑营收,可他们改变的根本目的就是提高营收。
情景 3
- __实验:__Audacity 有一门课程很难,注册率也很低,所以为该课程写了新描述,并进行了测试。Audacity 希望新描述能更激动人心,鼓励更多学生前来注册。在进行了为期五周的 A/B 测试后,Audacity 发现新描述组的注册率上升了,于是决定更改描述。
- 现实: 他们不知道的是,虽然新描述组的注册率看起来变高了,但这次 A/B 测试的结果并不可靠,因为随机性太高了,在本次试验中,数千名访客中只有 40 人进行了注册,因此就算课程只增加一名新学员,结果也会受到相当大的影响,甚至可能影响结论。
SOLUTION:
- 课程页面流量和转化率都太小,而且时间也太短,所以无法得到可靠的显著结果。
A/B 测试难点
正如你在上述情景看到的,设计 A/B 测试、基于测试结果得出结论都需要考虑诸多因素。下方总结了一些常见考虑因素:
- 老用户第一次体验改动会有新奇效应和改变抗拒心理;
- 要得到可靠的显著结果,需要有足够的流量和转化率;
- 要做出最佳决策,需选用最佳指标(如营收 vs 点击率);
- 应进行足够的实验时长,以便解释天/周/季度事件引起的行为变化;
- 转化率需具备现实指导意义(推出新元素的开支 vs 转化率提高带来的效益);
- 对照组和实验组的测试对象要有一致性(两组样本数失衡会造成 辛普森悖论 等现象的发生)。